Left Nb. | Right Nb. | Frequency |
---|---|---|
la | la | 53 |
la | de | 37 |
la | kaj | 5 |
la | en | 37 |
la | por | 3 |
de | de | 16 |
de | kaj | 17 |
de | en | 4 |
de | La | 65 |
de | al | 6 |
de | la | 27705 |
kaj | kaj | 8 |
kaj | de | 730 |
kaj | La | 23 |
kaj | al | 204 |
kaj | estas | 510 |
kaj | por | 168 |
kaj | estis | 347 |
kaj | la | 4018 |
en | kaj | 17 |
en | en | 6 |
en | La | 25 |
en | al | 10 |
en | la | 11624 |
estas | kaj | 19 |
estas | de | 232 |
estas | La | 14 |
estas | al | 11 |
estas | en | 331 |
estas | por | 49 |
NN co-occurrences within the 10 most frequent words are presented in a table.
The graph below gives much more information. Here, the top-1000 words are plotted against each other and the dots indicate NN co-occurrences. The diameter of the dots increases with the significance of the co-occurrence. Both axis are scaled logarithmic to shift the emphasis to the top words.
The picture above is very typical for a language, therefore the name language fingerprint. Comparing these fingerprints for different languages one is able to identify determiners, prepositions etc. by its graphical properties.
Frequency of the most frequent word:
select @maxfreq:=(select freq from words where w_id=101);
Table data:
select w1.word,w2.word,c.freq from co_n c, words w1, words w2 where w1.w_id=w1_id and w2.w_id=w2_id and w1_id>100 and w2_id>100 and 110>=w1_id and 110>=w2_id and c.freq>(select count(*) from sentences)/100000 order by w1.w_id;
Picture data:
select if(12>w1_id-99,w1.word,"-"),if(12>w2_id-99,w2.word,"-"),w1_id-99,w2_id-99,1/(log(c.freq/@maxfreq)*log(c.freq/@maxfreq)/20) from co_n c, words w1, words w2 where w1.w_id=w1_id and w2.w_id=w2_id and w1_id>100 and w2_id>100 and 1100>=w1_id and 1100>=w2_id and c.freq>(select count(*) from sentences)/100000;